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1 . Verfahren zur Reduktion von Echo- und/oder Gerauschsignalen bei 
Telekommunikations(=TK)-Systemen fur die Ubertragung von 
akustischen Nutzsignalen, insbesondere menschlicher Sprache, bei 
dem mittels Sprach-Pausen-Detektion ermittelt wird, wann in der zu 
ubertragenden Mischung aus Nutzsignalen und Storsignalen ein 
Sprachsignal enthalten ist oder wann eine Sprachpause vorliegt, 
wobei mittels eines Multiplizierers mit zwei Eingangen die in der 
Regel durch Echo- und/oder Gerauschsignale gestorten Nutzsignale 
in ihrer Amplitude durch ein zeitabhangiges Steuersignal a 0 (t) bzw. 
durch ein im Rhythmus einer Abtastrate f T =1/T getaktetes 
Steuersignal a 0 (k) verandert werden, wobei ke K die Abtastwerte 
durchzahlt und T die Periodendauer von einem Abtastwert zum 
nachsten bedeutet, 

dadurch gekennzeichnet, 

dass das Steuersignal a 0 (t) bzw. a 0 (k) so variiert wird, dass wahrend 
des Vorliegens von Sprachsignalen im Nutzsignal die Amplitude des 
Steuersignals a 0 (t) bzw. a 0 (k) auf einen vorgegebenen konstanten 
Wert c 0 gesetzt wird und mit Beginn einer Sprachpause im 
Nutzsignal die Amplitude des Steuersignals a 0 (t) bzw. a 0 (k) von 
einem Abtastwert zum nachsten gemafi der Rekursionsformel 

a 0 (k+1) = a 0 (k) • p mit p < 1 

stetig abgesenkt wird, 

und dass nach dem Ende einer Sprachpause a 0 (k) = c 0 gesetzt wird. 
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2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der 
Faktor p aus der Abtastrate f T , aus einerZeitkonstanten x<\ und aus 
einem vorgegebenen konstanten Vorfaktor ci bestimmt wird gemafi 
der Beziehung p = Cvexp(-1/xif T ) . 

3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die 
Zeitkonstante xi zwischen 50 ms und 150 ms gewahlt wird, 
vorzugsweise ti ~ 65 ms. 

4. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
'^Jik gekennzeichnet, dass der konstante Wert c 0 = 1 gewahlt wird. 

5. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dass a 0 (k+1) wahrend einer Sprachpause und/oder 
des Vorliegens eines Echosignals einen vorgegebenen konstanten 
Wert c 2 annimmt, falls der Vorgangerwert a 0 (k) < c 2 geworden ist. 

Verfahren nach einem der Anspruche 1 bis 4, dadurch 
gekennzeichnet, dass wahrend einer Sprachpause und/oder des 
Vorliegens eines Echosignals und fur a 0 (k) < c 2 , wobei c 2 eine 
vorgegebene Konstante ist, der Leistungswert des Gerauschpegels 
N im aktuell benutzten TK-Kanal fortlaufend gemessen und/oder 
geschatzt wird, und dass in Abhangigkeit vom aktuellen 
Gerauschpegel N laufend das Steuersignal a 0 (k+1) eingestellt wird 
gemafi a 0 (k+1) = f(N), wobei f(N) eine vorgegebene Funktion von N 
ist. 

7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass die 
vorgegebene Funktion f(N) eine Funktion g(S/N) ist, die vom 
Quotienten S/N aus dem Leistungswert des Signalpegels S der zu 
ubertragenden Nutzsignale und dem Leistungswert des 
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Gerauschpegels N abhangt, oder dass die vorgegebene Funktion 
f(N) eine Funktion g'(N/S) ist, die vom Kehrwert N/S dieses 
Quotienten abhangt. 

8. Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass die 
Funktion f(N) bzw. g(S/N) bei 1/N « 1 bzw. S/N = 0 dB mit einem 
konstanten Wert f 0 > 0 bzw. g 0 >0 beginnt, im Bereich zwischen N 
bzw. S/N = 10 dB bis 15 dB f vorzugsweise bei N bzw. S/N « 12 dB, 
auf ein Maximum f max bzw. gmax ansteigt und anschlieftend auf einen 
Minimalwert f min bzw. g mi n, vorzugsweise auf 0 dB abfallt, 

wobei 5 dB < f 0 , go ^ 10dB, vorzugsweise 6dB < f 0 , go ^ 8dB, 
und wobei 20 dB < f max , g ma x < 30 dB, vorzugsweise f max , g ma x « 
25 dB. 

9. Verfahren nach einem der Anspruche 6 bis 8, dadurch 
gekennzeichnet, dass die Funktion f(N) bzw. g(S/N) zumindest 
stuckweise, vorzugsweise in alien Teilabschnitten linear mit N bzw. 
S/N verlauft. 

10. Verfahren nach einem der Anspruche 6 bis 8, dadurch 
gekennzeichnet, dass die Funktion f(N) bzw. g(S/N) aus Polynomen 
aufgebaut ist und als unsymmetrische Glockenkun/e uber N bzw. 
S/N verlauft. 

11. Verfahren nach einem der Anspruche 6 bis 10, dadurch 
gekennzeichnet, dass die Funktionen f(N) bzw. g(S/N) oder g*(N/S) 
so gewahlt werden, dass die Reduktion des Gerauschpegels N 
gehorrichtig gemafi den psychoakustischen Mittelwerten des 
menschlichen Gehorspektrums erfolgt. 



12. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dass zusatzlich zur Erkennung und Reduktion von 
Gerauschsignalen das Vorliegen von Echosignaien detektiert 
und/oder vorhergesagt wird und die Echosignale unterdruckt oder 
reduziert werden. 

13. Verfahren nach Anspruch 12 und einem der Anspruche 6 bis 11, 
dadurch gekennzeichnet, dass das Steuersignal a 0 (k+1) laufend 
eingestellt wird gemafi a 0 (k+1) = h(N,S,ES,T E ,ERL), wobei 
h(N,S,ES,T E ,ERL) eine vorgegebene Funktion von N, S, dem 
Nutzsignal ES in Gegenrichtung eines sprechenden TK-Partners, x E 
eine konstante Verzogerungszeit des Echosignals und ERL eine 
Dampfungskonstante der Amplitude des Echosignals ist. 

14. Verfahren nach Anspruch 12, dadurch gekennzeichnet, dass die 
Steuerung der Reduktion von Gerauschsignalen und der Reduktion 
von Echosignaien getrennt erfolgt. 

15. Verfahren nach einem der Anspruche 12 bis 14, dadurch 
gekennzeichnet, dass wahrend der Zeitdauer einer Echo-Reduktion 
zum Nutzsignal zusatzlich ein kunstliches Gerauschsignal addiert 
wird. 

16. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass das 
kunstliche Gerauschsignal eine psychoakustisch als angenehm 
empfundene akustische Signalsequenz (=comfort noise) umfasst. 

17. Verfahren nach Anspruch 15, dadurch gekennzeichnet, dass das 
kunstliche Gerauschsignal ein zuvor wahrend deraktuellen TK- 
Verbindung aufgezeichnetes Gerauschsignal umfasst. 



18. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, 

dass in einem Sprach-Pausen-Detektor (SPD) aus dem 
Eingangssignal x mittels eines Kurzzeit-Pegelschatzers ein Kurzzeit- 
Ausgangssignal sam(x), mittels eines Mittelzeit-Pegelschatzers ein 
Mittelzeit-Ausgangssignal mam(x) und mittels eines Langzeit- 
Pegelschatzers ein Langzeit-Ausgangssignal lam(x) gebildet wird, 
dass die drei Ausgangssignale sam(x), mam(x) und lam(x) uber 
geeignete Verstarkungskoeffizienten so eingestellt werden, dass sie 
etwa gleich graft, wenn das Eingangssignal x ein reines 
Rauschsignal ist, wobei sam(x) < mam(x) < lam(x) , 
dass die drei Ausgangssignale sam(x), mam(x) und lam(x) von 
Komparatoren uberwacht werden, 

und dass das Vorliegen eines Sprachsignals als Eingangssignal x 
angeriommen wird, wenn sam(x) und mam(x) zunachst jeweils 
grafter werden als lam(x), und das Vorliegen einer Sprachpause, 
wenn danach sam(x) und/oder mam(x) wieder kleiner wird als 
lam(x). 

19. Verfahren nach Anspruch 18, dadurch gekennzeichnet, dass die 
drei Ausgangssignale sam(x), mam(x) und lam(x) zur Sprach- 
Pausen-Abschatzung einem neuronalen Netz zugefuhrt werden, das 
mit einer Vielzahl von Szenarien mit unterschiedlichen 
Eingangssignalen x trainiert wurde. 

20. Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dass das zu ubertragende Nutzsignal einer 
spektralen Subtraktion unterzogen wird. 

21 .Verfahren nach einem der vorhergehenden Anspruche, dadurch 
gekennzeichnet, dass das zu ubertragende Nutzsignal einer dem 



menschlichen Gehor angepassten spektralen Filterung unterzogen 
wird. 

22.Servereinheit zur Unterstutzung des Verfahrens nach einem der 
Anspruche 1 bis 21. 

23.Computerprogramm zur Durchfuhrung des Verfahrens nach einem 
der Anspruche 1 bis 21. 
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Exponentielle Echo- und Gerauschabsenkunq in Sprachpausen 



Die Erfindung betrifft ein Verfahren zur Reduktion von Echo- und/oder 
Gerauschsignalen bei Telekommunikations(=TK)-Systemen fur die Ubertragung 
von akustischen Nutzsignalen, insbesondere menschlicher Sprache, bei dem 
mittels Sprach-Pausen-Detektion ermittelt wird, wann in derzu ubertragenden 
Mischung aus Nutzsignalen und Storsignalen ein Sprachsignal enthalten ist 
oder wann eine Sprachpause vorliegt, wobei mittels eines Multiplizierers mit 
zwei Eingangen die in der Regel durch Echo- und/oder Gerauschsignale 
gestorten Nutzsignale in ihrer Amplitude durch ein zeitabhangiges Steuersignal 
a 0 (t) bzw. durch ein im Rhythmus einer Abtastrate f T =1/T getaktetes 
Steuersignal a 0 (k) verandert werden, wobei k e X die Abtastwerte durchzahlt 
und T die Periodendauer von einem Abtastwert zum nachsten bedeutet. 



Ein solches Verfahren ist beispielsweise bekannt aus der DE 42 29 912 A1. 

Wahrend einer naturlichen Kommunikation zwischen Menschen passt man in 
der Regel die Amplitude der gesprochenen Sprache automatisch an die 
akustische Umgebung an. Bei einer Sprachkommunikation zwischen entfernten 
Orten jedoch befinden sich die Gesprachspartner nicht im selben akustischen 
Umfeld und sind sich daher jeweils nicht der akustischen Situation am Ort des 
anderen Gesprachspartners bewusst. Besonders verscharft tritt daher ein 
Problem auf, wenn einer der Partner aufgrund seiner akustischen Umgebung 
gezwungen ist, sehr laut zu sprechen, wahrend der andere Partner in einer 
leisen akustischen Umgebung Sprachsignale mit geringer Amplitude erzeugt. 

Hinzu kommt das Problem, dass auf einem TK-Kanal auch ein "elektronisch 
erzeugtes" Gerausch entsteht und als Hintergrund zum Nutzsignal 
mitubertragen wird. Des weiteren ist es auch vorteilhaft, Storsignale wie 
unerwiinschten Hintergrundlarm (Strafcenlarm, Fabriklarm, Burolarm, 
Kantinenlarm, Fluglarm etc.) zu reduzieren oder ganz zu unterdrucken. Um den 
Komfort beim Telefonieren zu erhohen, ist man generell bestrebt, jede Art von 
Gerausch moglichst gering zu halten. 

Schliefilich entstehen bei TK-Verbindungen auch noch sogenannte Echos, die 
in Zweidraht-TK-Netzen als Leitungsechos und beispielsweise in einfachen und 
unkomfortableren TK-Endgeraten in Form von akustischen Echos auftreten. 

Allgemein ist es deshalb bei der Ubertragung von einem Gemisch aus 
Sprachsignal und Storsignalen uber TK-Netze wichtig, die Storsignale wie 
Gerausch und Echo soweit wie moglich in ihrer Amplitude abzusenken. 

Ein bekanntes Verfahren zur Gerauschreduktion ist die sogenannte "spektrale 
Subtraktion", die beispielsweise in der Veroffentlichung "A new approach to 
noise reduction based on auditory masking effects" von S. Gustafsson und P. 



Jax, ITG-Fachtagung, Dresden, 1998, beschrieben ist. Dabei handelt es sich 
um ein spektrales Gerauschabsenkungsverfahren, bei dem eine akustische 
Verdeckungsschwelle (beispielsweise nach dem MPEG-Standard) 
berucksichtigt wird. Nachteilig bei derartigen Verfahren ist die aufwendige 
Bestimmung dieser akustischen Verdeckungsschwelle und die Ausfuhrung aller 
mit diesem Verfahren verbundenen Rechenoperationen. 

Bei einer spektralen Subtraktion wird zunachst das Gerausch in den 
Sprachpausen gemessen und in Form eines Leistungsdichtespektrums 
fortlaufend in einem Speicher abgelegt. Das Leistungsdichtespektrum wird uber 
eine Fourier Transformation gewonnen. Beim Auftreten von Sprache wird 
sodann das gespeicherte Gerauschspektrum "als bester aktueller Schatzwert" 
- vom aktuellen gestorten Sprachspektrum subtrahiert, sodann in den 

Zeitbereich zurucktransformiert, um auf diese Weise eine Gerauschreduktion 
fur das gestorte Signal zu erhalten. 

Ein weiterer Nachteil der spektralen Subtraktion besteht darin, dass durch den 
Vorgang einer prinzipiell nicht genauen spektralen Gerauschschatzung und 
nachfolgender Subtraktion auch Fehler im Ausgangssignal auftreten, die sich 
als "musical tones" bemerkbar machen. Aufterdem ist dieses bekannte 
Verfahren kaum zur Unterdruckung von Echosignalen bei TK-Verbindungen 
geeignet. 

Bei der erweiterten spektralen Signalbearbeitung, die ebenfalls in dem 
genannten Zitat beschrieben ist, werden zunachst mit Hilfe einer spektralen 
Subtraktion die Leistungsdichtespektren fur das Gerausch und fur die Sprache 
selbst geschatzt. Aus der Kenntnis dieser Teilspektren wird sodann mit Hilfe 
z.B. der Regeln aus dem MPEG Standard eine spektrale akustische 
Verdeckungsschwelle R T (f) fur das menschliche Ohr berechnet. Mit Hilfe dieser 
Verdeckungsschwelle und den geschatzten Spektren fur Gerausch und 
Sprache wird sodann nach einer einfachen Regel eine Filterdurchlasskurve H(f) 
berechnet, die so gestaltet ist, dass wesentliche spektrale Teile der Sprache 



moglichst unverandert durchgelassen und spektrale Teile des Gerausches 
moglichst abgesenkt werden. 

Sodann wird das originale gestorte Sprachsignal nur durch dieses Filter 
gegeben, urn auf diese Weise eine Gerauschreduktion fur das gestorte Signal 
zu erhalten. Der Vorteil dieses Verfahrens besteht nun darin, dass vom 
gestorten Signal "Nichts addiert oder subtrahiert" wird und daher Fehler in den 
Schatzungen weniger bis kaum wahrnehmbar sind. Nachteilig ist wieder der 
erhebliche Rechenaufwand fur die spektrale Gerauschunterdruckung sowie das 
fur eine Echounterdruckung vorzuschaltende adaptive Filter. 

Bei dem bekannten Kompander-Verfahren, wie es beispielsweise in der 
eingangs zitierten DE 42 29 912 A1 beschrieben ist, wird der Grad der 
Gerausch- und Echoabsenkung gemali einer fest vorgegebenen 
Transferfunktion festgelegt, die unter anderem eine Pegelabsenkung auch bei 
sehr kleinen Eingangssignalen vornimmt. 

Der Kompander hat zunachst die Eigenschaft, Sprachsignale mit einem 
bestimmten (vorab eingestellten) "normalen Sprachsignalpegel" (ggf. normale 
Lautstarke genannt) praktisch unverandert von seinem Eingang zum Ausgang 
zu tibertragen. 

Wird nun aberdas Eingangssignal einmal zu laut, z.B. weil ein Sprecherzu 
dicht an sein Mikrofon kommt, so begrenzt ein Dynamik-Kornpressor den 
Ausgangspegel auf nahezu den gleichen Wert wie im Normalfall, indem die 
aktuelle Verstarkung im Kompander mit zunehmender Eingangslautstarke linear 
abgesenkt wird. Durch diese Eigenschaft bleibt die Sprache am Ausgang des 
Kompandersystems etwa gleich laut - unabhangig davon wie stark die 
Eingangslautstarke schwankt. 

Wird nun andererseits ein Signal mit einem Pegel, der kleiner als der 
Normalpegel ist, auf den Eingang des Kompanders gegeben, so wird das 



Signal zusatzlich gedampft, indem die Verstarkung zuruckgeregelt wird, um 
Hintergrundgerausche moglichst nur abgeschwacht zu iibertragen. 

Der Kompander besteht somit aus einem Kompressor fur Sprachsignalpegel, 
die grofier odergleich einem Normalpegel sind und einem Expander fur 
Signalpegel, die kleiner als der Normalpegel sind. Die Verstarkungsabsenkung 
im Expander wird dabei mit zunehmend kleineren Eingangspegeln starker. 

Nachteilig bei der Kompander-Losung ist der erhebliche Rechenaufwand, der 
zur Durchfiihrung des bekannten Verfahrens erforderlich ist. Durch die 
Kompression des Sprachsignalpegels einerseits und durch die Expansion 
andererseits wird auflerdem eine Modulation in der Sprachlautstarke 
hervorgerufen, die das Sprachsignal in einer Weise verandert, dass das 
Ergebnis subjektiv oft als unbefriedigend empfunden wird, d.h. einen 
unbefriedigenden Horeindruck hinterlasst. 

Aufgabe der vorliegenden Erfindung ist es demgegenuber, ein Verfahren mit 
den eingangs beschriebenen Merkmalen vorzustellen, bei dem in moglichst 
unaufwendiger und kostengunstiger Art und Weise ohne grofJen 
Rechenaufwand und mit geringem Bedarf an Rechenspeicher und 
Datenspeicherplatz eine Echo- und Gerauschabsenkung bewirkt wird, die mit 
einfachen Mitteln einen fur das menschliche Ohr moglichst angenehmen 
akustischen Gesamteindruck erzeugt, der je nach Geschmack zusatzlich an 
individuelle Bedurfnisse angepasst werden kann. 

Erfindungsgemali wird diese Aufgabe auf ebenso einfache wie wirkungsvolle 
Art und Weise dadurch gelost, dass das Steuersignal ao(t) bzw. ao(k) so variiert 
wird, dass wahrend des Vorliegens von Sprachsignalen im Nutzsignal die 
Amplitude des Steuersignais ao(t) bzw. ao(k) auf einen vorgegebenen 
konstanten Verstarkungswert Co gesetzt wird und mit Beginn einer Sprachpause 
im Nutzsignal die Amplitude des Steuersignais a 0 (t) bzw. a 0 (k) von einem 
Abtastwert zum nachsten gemad der Rekursionsformel 
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a 0 (k+1) = a 0 (k)-p 



mit (5 < 1 




stetig abgesenkt wird, 

und dass nach dem Ende einer Sprachpause wieder a 0 (k) = c 0 gesetzt wird. 

Damit steht eine sehr einfache und sehr kostengunstige Methode bereit, die 
auch eine iiberraschend gute Qualitat bezuglich einer Storreduktion ergibt, 
indem sie vorzugsweise in Sprachpausen die storenden Echo- und 
Gerauschsignale reduziert. Wahrend der Sprachphasen selbst werden die 
Storgerausche zumindest teilweise maskiert und daher vom menschlichen Ohr 
weit weniger deutlich wahrgenommen. Durch das Weglassen decompression 
nach dem bekannten Kompander-Verfahren wird das originale Sprachsignal 
erheblich weniger verandert, so dass im Ergebnis ein in der Regel besser 
klingendes Sprachsignal am anderen Ende der Leitung ankommt. AuRerdem 
erfordert das erfindungsgemafie Verfahren eine geringere Rechenieistung als 
das Kompander-Verfahren, da ja zumindest die Kompression unterbleibt. 
Entsprechend sind geringere Kapazitaten an Datenspeichern und 
Rechenspreicher erforderlich, was das erfindungsgemafce Verfahren im 
Gegensatz zu den bekannten Verfahren einfacher und kostengunstiger 
gestaltet. 

Urn eine effektive Gerauschreduktion zu erzielen, wird das zu ubertragende 
Signal wahrend der Sprachpausen in seinem Leistungswert gemali einer 
zeitlichen Exponentialfunktion, im Gegensatz zu einer vom Eingangspegel 
abhangigen Absenkung, wie bei dem Kompander-Verfahren, abgesenkt. Damit 
wird bereits eine wesentliche Gerauschminderung erzielt, Hinzu kommt, dass 
eine Absenkung der Gerausche wahrend einer Sprachpause das Gehor 
deutlich weniger belastet, indem es den Taubheitseffekt nach lauter 
Schalleinwirkung wesentlich mindert. Das Ohr kann bei Wiedereinsetzen der 
Sprache empfindlicher reagieren und genauer hinhoren. 
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Beispielsweise wird man Gerausche vorzugsweise in Abhangigkeit vom 
momentanen Gerauschpegel N bzw. in Abhangigkeit von einer Funktion g(S/N) 
des Signal-zu-Gerauschabstandes S/N absenken, aber kurzzeitig auftretende 
Echos starker absenken und nach dem Ende der Echos die Absenkung auf den 
geringeren Wert der Gerauschabsenkung zuriickfuhren. 

Besonders bevorzugt ist daher eine Verfahrensvariante, die sich dadurch 
auszeichnet, dass bei Vorliegen eines Gerauschsignals und/oder Echosignals 
und fur ao(k) < c 2 , wobei c 2 eine vorgegebene Konstante ist, der Leistungswert 
des Gerauschpegels N im aktuell benutzten TK-Kanal fortlaufend gemessen 
und/oder geschatzt wird, und dass in Abhangigkeit vom aktuellen 
Gerauschpegel N laufend das Steuersignal a 0 (k+1) eingestellt wird gemafc 
a 0 (k+1) = f(N), wobei f(N) eine vorgegebene Funktion von N ist. 

Damit wird der Grad einer Gerauschabsenkung vom aktuell auftretenden 
Leistungswert N des Gerausches automatisch mitgesteuert und dem aktuellen 
Gerauschwert im Telefonkanal angepasst und in vorbestimmter definierter 
Weise nachgefuhrt. Uber die Wahl der Funktion f(N) kann auch der subjektive 
Eindruck des erzeugten Gesamtsignals angepasst werden. Ein weiterer Vorteil 
dieser Verfahrensvariante besteht darin, dass bei einem Bundel von 
Telefonkanalen, beispielsweise zwischen internationalen Vermittlungsstellen, 
die Gerauschsituation in jedem einzelnen Kanal, die ja von Kanal zu Kanal sehr 
verschieden sein kann, automatisch eingestellt und individuell optimiert werden 
kann. 

Besonders bevorzugt ist eine Variante des erfindungsgemafien Verfahrens, die 
sich dadurch auszeichnet, dass die vorgegebene Funktion f(N) eine Funktion 
g(S/N) ist, die vom Quotienten S/N aus dem Leistungswert des Signalpegels S 
der zu ubertragenden Nutzsignale und dem Leistungswert des Gerauschpegels 
N abhangt, oder dass die vorgegebene Funktion f(N) eine Funktion g'(N/S) ist, 
die vom Kehrwert N/S dieses Quotienten abhangt. Aus Grunden einer 
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einfacheren praktischen Realisierung kann man auch eine Funktion von 
(S+N)/N Oder von (S+N)/S verwenden. 

Der Vorteil der obigen Verfahrensvariante besteht darin, dass bei stark 
variierendem Nutzsignalpegel S in den Telefonkanalen eines Bundels immer 
die richtige Einstellung fur die Gerauschabsenkung gefunden wird. Bei einer 
Steuerung der Gerauschreduktion proportional zum Kehrwert N/S lasst sich die 
Funktion g'(N/S) leicht auf einem digitalen Signalprozessor (=DSP) mit festen 
Computerwortlangen von beispielsweise 16 bit unter Verwendung von 
besonders einfacher Software implementieren, da fur N/S vorzugsweise ein 
Zahlenbereich 0 < N/S < 1 zur Steuerung der Gerauschreduktion relevant bzw. 
interessant ist. 

Akustische Gehortests haben ergeben, dass bei S/N = 0 db die Sprache bereits 
so stark gestort ist, dass man das Gerausch nur bedingt um einen Wert f 0 bzw. 
g 0 zwischen 5 und 10 dB, vorzugsweise zwischen 6 und 8 dB reduzieren darf, 
um den akustischen Gesamteindruck im Hinblick auf eine Naturlichkeit der 
Sprache nicht zu verschlechtern. Bei noch ungunstigeren Werten des Signal- 
zu-Rausch-Verhaltnisses S/N < 0 dB kann dann der Wert f 0 bzw. g 0 beibehalten 
werden, da jede weitere Gerauschabsenkung den Gesamteindruck nur 
verschlechtert. 

Bei mittleren S/N kann gemafc diesen Untersuchungen eine starkere 
Gerauschabsenkung vorgenommen werden. Ein Maximum ergibt sich dabei im 
Bereich 10 bis 15 dB. Der Wert der Gerauschabsenkung f ma x bzw. g max sollte 
im Maximum zwischen 20 und 30, vorzugsweise etwa 25 dB betragen. 

Bei sehr guten Rauschwerten S/N > 40 dB sollte nur noch eine minimale 
Absenkung zwischen 0 und 3 dB eingestellt werden, um die Naturlichkeit der 
ubertragenen Sprache so gut wie moglich zu erhalten. 
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Der Klang der Sprache und die Verstandlichkeit sind besonders gut, wenn die 
Funktion f(N) bzw. g(S/N) uber die drei oben diskutierten Bereiche hinweg in 
stetiger Weise miteinander zusammenhangt, wobei schnelle Anderungen in N 
oder in S(N) vorteilhaft durch Filterungen geglattet werden konnen. 

Eine relativ einfache Realisierung in Hardware und/oder Software ergibt sich, 
indem man die Funktionen f(N) bzw. g(S/N) bzw. g'(N/S) durch gerade 
Kennlinienstucke zwischen den drei oben beschriebenen Betriebspunkten 
approximiert (abschnittsweise lineare Naherung). 

Bei einer etwas aufwendigeren Variante des erfindungsgemalien Verfahrens, 
die aber im Ergebnis zu einem besseren Klangbild fuhrt, wird eine 
Polynomfunktion zur Implementierung der stetigen Funktionen f(N) bzw. g(S/N) 
bzw. g'(N/S) in den drei diskutierten Bereichen herangezogen, was im Ergebnis 
zu einer Art unsymmetrischer Glockenfunktion fuhrt. 

Besonders bevorzugt ist eine Variante des erfindungsgemaflen Verfahrens, bei 
der die Funktionen f(N) bzw. g(S/N) oder g'(N/S) so gewahlt werden, dass die 
Reduktion des Gerauschpegels N gehorrichtig gemafi den psychoakustischen 
Mittelwerten des menschlichen Gehorspektrums erfolgt Dabei wird der Wert fur 
S und/oder N nicht nur aus dem momentanen Leistungswert alleine, sondern 
auch aus einem gewichteten spektralen Verlauf von S bzw. N bestimmt und 
insgesamt uber die so gewonnene Funktion eine gehorrichtige, d.h. eine 
psychoakustisch angenehm klingende Gerauschreduktion erzielt. Da es kein 
einfach darstellbares Mafi fur eine akustisch angenehm klingende 
Gerauschreduktion gibt, sind alle Qualitatsbeurteilungen auf umfangreiche 
Gehortests angewiesen, die anschliefiend mittels dafur optimierter statistischer 
Methoden ausgewertet werden, um einen Bewertungsmafistab, (ahnlich wie bei 
Sprachcodecs) zu erhalten. 

Eine gute Gerauschpegel-Schatzung erfordert einen guten Sprach-Pausen- 
Detektor, da man nur dann sicher sein kann, dass in den Sprachpausen- 
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Abschnitten lediglich storendes Gerausch und nicht irgendeine Mischung 
zwischen Gerausch und Sprachfetzen vorliegt, wie es in der Praxis haufig 
vorkommt. 

Besonders bevorzugt ist daher eine Verfahrensvariante, die sich dadurch 
auszeichnet, dass im Sprach-Pausen-Detektor aus dem Eingangssignal x 
mittels eines Kurzzeit-Pegelschatzers ein Kurzzeit-Ausgangssignal sam(x), 
mittels eines Mittelzeit-Pegelschatzers ein Mittelzeit-Ausgangssignal mam(x) 
und mittels eines Langzeit-Pegelschatzers ein Langzeit-Ausgangssignal lam(x) 
gebiidet wird, dass die drei Ausgangssignale sam(x), mam(x) und lam(x) uber 
geeignete Verstarkungskoeffizienten so eingestellt werden, dass sie etwa gleich 
graft, wenn das Eingangssignal x ein reines Rauschsignal ist, wobei sam(x) < 
mam(x) < lam(x), dass die drei Ausgangssignale sam(x), mam(x) und lam(x) 
von Komparatoren uberwacht werden, und dass das Vorliegen eines 
Sprachsignals als Eingangssignal x angenommen wird, wenn sam(x) und 
mam(x) zunachst jeweils grofier werden als lam(x), und das Vorliegen einer 
Sprachpause, wenn danach sam(x) und/oder mam(x) wieder kleiner wird als 
lam(x). 

Mit Hilfe dieser relativ einfachen Arten der Bildung von verschiedenen 
Mittelwerten des Zeitsignals kann bereits eine uberraschend gute 
Sprachpausen-Detektion durchgefuhrt werden, die nur einen sehr geringen 
Rechenaufwand erfordert. 

Eine Weiterbildung dieser Verfahrensvariante sieht vor, dass 
die drei Ausgangssignale sam(x), mam(x) und lam(x) zur Sprach-Pausen- 
Abschatzung einem neuronalen Netz zugefiihrt werden, das mit einer Vielzahl 
von Szenarien mit unterschiedlichen Eingangssignalen x trainiert wurde. Ein 
neuronales Netz kann vorteilhaft lineare und nichtlineare Zusammenhange 
zwischen einer groflen Menge von Eingabeparametern und den gewunschten 
Ausgabewerten abbilden. Eine Voraussetzung dafur ist, dass das neuronale 
Netz einmal mit einer hinreichenden Menge von Eingabewerten und 
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zugehorigen Ausgabewerten trainiert wurde. Dahereignen sich neuronale 
Netze besonders fur die Aufgabe einer Sprachpausen-Detektion bei 
Anwesenheit von unterschiedlichen storenden Gerauschen. 

Vorzugsweise wird zusatzlich zur Erkennung und Reduktion von 
Gerauschsignalen auch das Vorliegen von Echosignalen detektiert und/oder 
vorhergesagt und die entsprechenden Echosignale unterdruckt oder reduziert. 
Wenn in einem Tefefonkanal zusatzlich zu Gerauschen auch Echos auftreten, 
so konnen diese in der Regel anhand einer vorab ermittelten Signallaufzeit x E 
eines Echos sowie der vorab ermittelten Echokopplung ERL im Kanal und der 
Signalstarke ES, die das Echo im Ruckkanal auslost, vorhergesagt werden. 
Man kann diese Schatzung in der Weise durchfiihren, dass in Abhangigkeit 
vqm ausgesendeten Sprachsignal und seiner momentanen Leistung die Grofie 
der verzogert eintreffenden Echos abgeschatzt wird. Uberschreitet das jeweils 
geschatzte Echosignal in bestimmten kurzen Zeitabschnitten einen 
vorgegebenen Schwellwert thrs, so wird dieses echobehaftete Signal 
vorzugsweise kurzzeitig zusatzlich, beispielsweise durch die oben erwahnte 
exponentielle Absenkung, auf einen Wert gedampft, der fur eine wesentliche 
Reduktion des Echosignals erforderlich ist. Im gleichen Sinn kann auch eine 
Kompander-Kennlinie kurzzeitig bei Echos in die Richtung grofierer 
Eingangslautstarke verschoben und nach Abklingen der Echos wieder in ihre 
ursprungliche Lage zuruckgefuhrt werden. 

Besonders bevorzugt ist eine Weiterbildung dieser Verfahrensvariante, bei der 
das Steuersignal a 0 (k+1) laufend eingestellt wird gemafi a 0 (k+1) = 
hCN.S^S^E.ERL), wobei h(N,S,ES,T E ,ERL) eine vorgegebene Funktion von N, 
S, dem Nutzsignal ES in Gegenrichtung eines sprechenden TK-Partners, x E 
eine konstante Verzogerungszeit des Echosignals und ERL eine 
Dampfungskonstante der Amplitude des Echosignals ist. 

Man kann vorteilhaft eine gehorrichtige Gerauschabsenkung mit einer 
unabhangig davon arbeitenden Echoreduktion verbinden. Das ist besonders 
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dann wichtig, wenn im Telefonkanal so gut wie kein Hintergrundgerausch 
existiert, da dann keine Gerauschabsenkung wirksam wird, und somit 
auftretende Echos ungehindert zum Sprecher gelangen konnen. 

Eine Trennung der Steuerung einer Gerauschreduktion von der einer 
Echoabsenkung ist zweckmafJig, da Gerausche und Echos unabhangig 
voneinander auftreten und auch in der Regel vollig unterschiedliche 
physikalische Ursachen haben. Man kann aber mathematisch eine generelle 
Reduktionsfunktion R angeben, die eine Absenkung von Signalpegeln sowohl 
fiir Gerausche als auch fur Echos beschreibt: 

R(S, N, ES, T E , ERL, thrs) - g(S/N) • d(ES, x E , ERL, thrs) , 

wobei g(S/N) die oben beschriebene Gerauschreduktion und d( v .) die 
unabhangig zusatzlich einsetzende Echoabsenkung bedeuten, wenn das 
geschatzte Echosignal den vorgegebenen Schwellwert thrs uberschreitet. 

Besonders vorteilhaft ist eine Verfahrensvariante, bei der wahrend der 
Zeitdauer einer Echo-Reduktion zum Nutzsignal zusatzlich ein kunstliches 
Gerauschsignal addiertwird. 

Eine Gerauschabsenkung ist bei gleichbleibendem Gerauschpegel ebenfalls 
konstant. Eine plotzlich zusatzlich einsetzende Echoreduktion im Rhythmus der 
Sprache bedeutet auch eine Gerauschabsenkung (zumindest in dem kurzen 
Zeitabschnitt) im Sprachrhythmus. Dies fiihrt zu einem gepulsten 
Hintergrundgerausch, welches sich nicht naturlich anhort. Daher ist es 
vorteilhaft, in den Augenblicken einer zusatzlichen Echoreduktion ein 
synthetisches Gerausch eines geeigneten Rauschgenerators in der 
GrofJenordnung des normalen Hintergrundgerausches zum bearbeiteten Signal 
hinzuzufugen. Damit soil ein moglichst gleichbleibendes Hintergrundgerausch 
fur den Horer vermittelt werden. 
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Der Rauschgenerator kann so gestaltet werden, dass das kunstliche 
Gerauschsignal eine psychoakustisch als angenehm empfundene akustische 
Signalsequenz (=comfort noise) umfasst. 

Anstelle eines synthetischen Hintergrundgerausches kann aberauch ein 
Abschnitt eines zuvor aufgezeichneten echten Hintergrundgerausches in 
passender Starke in den Echozeitabschnitten eingefugt werden. Das 
hinzugefugte Gerausch unterscheidet sich dann so gut wie uberhaupt nicht vom 
vorherigen Gerausch und wird daher keine storende akustische 
Veranderung beim Horer hervorrufen. 

Das HinzufQgen von Gerauschen zur akustischen Verdeckung von Effekten 
sowie die Maftnahmen einer getrennten Behandlung von Gerauschen und 
Echos werden, wenn sie richtig aufeinander abgestimmt sind, einen besonders 
verstandlichen und angenehmen Spracheindruck auch bei "schwieriger" 
Umgebung (Echos plus Gerausche) bewirken. 

Besonders bevorzugt ist auch eine Variante des erfindungsgemaften 
Verfahrens, bei der das zu ubertragende Nutzsignal einer spektralen 
Subtraktion unterzogen wird. DerVorteil einer spektralen Subtraktion mit 
nachgeschalteter Pegelabsenkung in den Sprachpausen besteht darin, dass 
zuerst mittels spektraler Subtraktion ein Teil der Storgerausche aus dem 
Sprachsignal selbst eliminiert wird und erst danach die Sprachpausen in der 
beschriebenen Art von Gerauschen und Echos befreit werden. Insgesamt ergibt 
diese Kombination bei subjektiven Tests bessere Horeindrucke als nur eine 
einfache spektrale Subtraktion. 

Eine weitere besonders vorteilhafte Variante des erfindungsgemafien 
Verfahrens schlielilich sieht vor, dass das zu ubertragende Nutzsignal einer 
dem menschlichen Gehor angepassten spektralen Filterung unterzogen wird. 
Auch hier wird mit den Mitteln einer spektralen Subtraktion zunachst eine 
Schatzung von Gerauschen, von Sprache und den Echos durchgefuhrt, sodann 
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eine gehorrichtige Verdeckungsschwelle bestimmt und dann das gesamte 
Signal uber ein passend eingestelltes Ubertragungsfilter so bearbeitet, dass die 
Sprachanteile moglichst unverfalscht und die Echo- und Gerauschanteile 
moglichst weitgehend unterdrtickt werden. 

Eine Kombination mit der nachgeschalteten Pegelabsenkung in den 
Sprachpausen verbessert den Horeindruck weiter. 

In den Rahmen der vorliegenden Erfindung fallt auch eine Servereineit zur 
Unterstutzung des oben beschriebenen erfindungsgemaften Verfahrens sowie 
ein Computerprogramm zur Durchfuhrung des Verfahrens. Das Verfahren kann 
sowohl als Hardwareschaltung, als auch in Form eines Computerprogramms 
realisiert werden. Heutzutage wird eine Software-Programmierung fur 
leistungsstarke DSP's bevorzugt, da neue Erkenntnisse und Zusatzfunktionen 
leichter durch eine Veranderung der Software auf bestehender Hardwarebasis 
implementierbar sind. Verfahren konnen aberauch als Hardwarebausteine 
beispielsweise in TK-Endgeraten oder Telefonanlagen implementiert werden. 

Weitere Vorteile der Erfindung ergeben sich aus der Beschreibung und der 
Zeichnung. Ebenso konnen die vorstehend genannten und die noch weiter 
aufgefuhrten Merkmale erfindungsgemaS jeweils einzeln fur sich oderzu 
mehreren in beliebigen Kombinationen Verwendung finden. Die gezeigten und 
beschriebenen Ausfuhrungsformen sind nicht als abschliefiende Aufzahlung zu 
verstehen, sondern haben vielmehr beispielhaften Charakter fur die Schilderung 
der Erfindung. 

Die Erfindung ist in der Zeichnung dargestellt und wird anhand von 
Ausfuhrungsbeispielen naher erlautert. Es zeigen: 

Fig. 1 das Steuersignal ao bei Vorliegen von Sprachsignalen, wahrend 

einer Sprachpause und bei erneutem Einsetzen der 
Sprachsignale; 
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Fig. 2 



ein Schema einer Anordnung zur gesteuerten Signalabsenkung; 



Fig. 3a 



die Funktion g(S/N) in der linearen Naherung; 



Fig. 3b 



die entsprechende Funktion g'(NI/S); 



Fig. 4a 



die Funktion g(S/N) als unsymmetrische Glockenkurve; und 



Fig. 4b 



die entsprechende Funktion g'(N/S). 



Das in Fig. 1 als Funktion der Zeit t bzw. der Abtastzahl k dargestellte 
Steuersignal a 0 wird wahrend einer ersten Phase T1, in welcher Sprachsignale 
detektiert werden, auf einem Wert c 0 = 1 gehalten. Wahrend einer Sprachpause 
im Zeitabschnitt T2 wird das Steuersignal a 0 exponentiell auf einen kurz uber 0 
liegenden konstanten Wert c 2 abgesenkt, um dann bei erneutem Einsetzen der 
Sprachsignale wahrend einer Phase T3 sprungartig wieder auf den Wert c 0 =1 
(oder eine andere, beliebig wahlbare Konstante) heraufgesetzt zu werden. 
Dadurch wird wahrend der Sprachphasen T1 , T3 keine (oder bei anderen 
Beispielen nur eine geringe) Unterdriickung von Storsignalen im Gesamtsignal 
vorgenommen, so dass das Sprachsignal moglichst unverfalscht und 
ungehindert weitergeleitet wird. Wahrend der Sprachpause in der Phase T2 
wird moglichst schnell (exponentiell) eine moglichst effektive Unterdriickung von 
Echos und Gerauschsignalen bewirkt, wobei aber im vorliegenden Beispiel 
nicht auf den Wert 0, sondern auf einen kleinen Restwert c 2 abgesenkt wird, um 
nicht am anderen Ende den Eindruck einer "toten" Leitung zu erwecken. Beim 
Auftreten von Echos wird eine Absenkung auf einen Restwert c 3 < c 2 
vorgenommen. 

In Fig. 2 ist schematisch die Funktionsweise einer Anordnung zur Gerausch- 
und Echoreduktion entsprechend der oben genannten Reduktionsfunktion R(S, 
N, ES, t e , ERL, thrs) mit einem Sprach-Pausen-Detektor SPD dargestellt. 




Fur samtliche in den Figuren 3a bis 4b dargestellten Kurven gilt, dass der 
Funktionswert g bzw. g 1 fur den Fall S/N < 0 dB, also bei extrem hohem 
Gerauschhintergrund, in einen konstanten Wert g 0 der Gerauschreduktion von 
etwa 6 dB ubergeht. Beginnend von S/N = 0 dB wird mit zunehmender 
Verbesserung des Signal-zu-Rausch-Verhaltnisses S/N eine erhohte 
Gerauschreduktion vorgenommen, die ein Maximum g ma x~ 25 dB bei etwa S/N 
« 12dB erreicht. Mit weiter zunehmendem S/N sinkt der Grad der 
Gerauschreduktion schliefilich gegen Null, um bei geringem 
Hintergrundgerausch mogiichst wenig Manipulationen im ubertragenen 
Nutzsignal vorzunehmen. 
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Zusammenfassuna 



Ein Verfahren zur Reduktion von Echo- und/oder Gerauschsignalen bei 
TK-Systemen fur die Ubertragung von akustischen Nutzsignalen, bei 
dem mittels Sprach-Pausen-Detektion ermittelt wird, wann eine 
Sprachpause vorliegt, wobei die gestorten Nutzsignale durch ein 
zeitabhangiges Steuersignal a 0 (t) bzw. durch ein im Rhythmus einer 
Abtastrate f T =1/T getaktetes Steuersignal a 0 (k) verandert werden, ist 
dadurch gekennzeichnet, dass das Steuersignal a 0 (k) so variiert wird, 
dass wahrend des Vorliegens von Sprachsignalen im Nutzsigna! die 
Amplitude des Steuersignals a 0 (k) auf einen vorgegebenen konstanten 
Wert c 0 gesetzt wird und mit Beginn einer Sprachpause die Amplitude 
des Steuersignals a 0 (k) von einem Abtastwert zum nachsten gemaft der 
Rekursionsformel a 0 (k+1) = a 0 (k) - (3 mit (5 < 1 stetig abgesenkt wird, 
und dass nach dem Ende einer Sprachpause a 0 (k) = c 0 gesetzt wird. 
Damit kann unaufwendig und kostengunstig ohne groften 
Rechenaufwand und mit geringem Bedarf an Rechenspeicher und 
Datenspeicherplatz eine Echo- und Gerauschabsenkung bewirkt 
werden, die mit einfachen Mitteln einen fur das menschliche Ohr 
moglichst angenehmen akustischen Gesamteindruck erzeugt, der je 
nach Geschmack an individuelle Bedurfnisse angepasst werden kann. 

(Fig. 1) 
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